Введение в программирование на Triton: Парадокс производительности: почему правильный код медленен

Парадокс производительности указывает, что математически идеальный ядро, например $out = x + y$, может на самом деле работать хуже, чем цикл на процессоре, если не удается распределить постоянные затраты аппаратного обеспечения видеопроцессора. Это часто проявляется как налог за запуск.

1. Ошибка «Правильности»

Функциональная корректность не является показателем эффективности. Хотя ваш код на Triton может правильно распределять работу между тысячами потоков, если общее количество работы (N) невелико, видеопроцессор остается недогруженным. Аппаратное обеспечение тратит больше времени на переходы состояний, чем на реальные арифметические операции.

2. Ловушка измерений в Python

Измерение производительности кода для видеопроцессора с помощью Python с использованием time.time() опасно. Вызовы видеопроцессора являются асинхронными; Python просто ставит в очередь команду и продолжает работу. Без torch.cuda.synchronize(), вы измеряете время постановки в очередь. При синхронизации вы измеряете задержку передачи данных с хоста на устройство, которая часто в 10 раз дольше самой выполнения ядра.

3. Задержка против пропускной способности

Чтобы преодолеть парадокс, необходимо предоставить достаточный объем работы, чтобы «скрыть» задержку запуска. Это переход от режима ограниченного задержкой режима (ограниченного шиной процессор-видеопроцессор) к режиму ограниченному пропускной способности режима (ограниченному памятью или вычислительной мощностью видеопроцессора).

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

For each kernel, decide whether the bottleneck is likely arithmetic throughput, memory bandwidth, or launch overhead: Vector addition (N=256), Vector addition (N=10^8), and Matrix Multiplication (N=8192).

N=256: Arithmetic; N=10^8: Bandwidth; MM: Launch

N=256: Launch; N=10^8: Bandwidth; MM: Arithmetic

N=256: Bandwidth; N=10^8: Arithmetic; MM: Launch

All are compute-bound.

QUESTION 2

In the context of the Performance Paradox, what is the primary bottleneck for a 'ReLU on a matrix' operation?

Arithmetic Throughput

Memory Bandwidth

L1 Cache Size

QUESTION 3

What does the term 'Asynchronous Execution' imply regarding GPU benchmarking?

The GPU and CPU always finish at the same time.

The CPU continues to the next line of code before the GPU kernel finishes.

The kernel runs faster on smaller GPUs.

Memory transfers are blocked by compute.

QUESTION 4

Why does $out = x + y$ exhibit low arithmetic intensity?

It uses three memory accesses (2 loads, 1 store) for a single floating-point operation.

The addition operation is too complex for the ALUs.

It requires shared memory synchronization.

It only runs on one SM.

QUESTION 5

How can the 'Launch Tax' be amortized in a real-world application?

By calling the kernel more frequently with smaller data.

By increasing the workload per launch (e.g., larger N or batching).

By using 16-bit floats instead of 32-bit floats.

By disabling the L2 cache.